终端与长 horizon 评测
Terminal-Bench、LongCLI-Bench、LOCA-bench 各补 SWE-bench 哪块盲区
核心要点:
- Terminal-Bench:纯 CLI 任务,补 SWE-bench 盲区
- LongCLI-Bench:长 horizon,通过率低于 20%
- LOCA-bench:可控上下文增长压测
- 现实任务暴露能力上限
- 长任务普遍早崩
本文讲 SWE-bench 之外的评测维度。SWE-bench 家族见 02-SWE-bench家族。
SWE-bench 测不到什么?
核心问题:一个 agent SWE-bench 高分,是不是就什么都能干?
SWE-bench 不测纯命令行操作、不测超长任务,这两块是它的盲区。它聚焦"改代码修 issue",但 agent 在真实环境还要做系统管理、CLI 工具链、长流程任务,这些需要专门的 benchmark。
下面三个 benchmark 各补一块盲区:Terminal-Bench 补 CLI,LongCLI-Bench 补长 horizon,LOCA-bench 补上下文增长压力。
Terminal-Bench 测什么?
核心问题:agent 在命令行里干活的能力,怎么量化?
Terminal-Bench 用一批真实命令行任务测 agent 的终端操作能力,前沿模型完成率低于 65%[1]。它覆盖 SWE-bench 不碰的系统管理、安全、数据科学等 CLI 任务。
89 个任务以任务完成率评测,涉及 shell 脚本、CLI 工具、进程管理、文件系统操作。前沿模型低于 65% 的成绩说明:会改代码不等于会用终端——纯 CLI 操作是独立的能力维度。这与 agent 实际工作环境高度相关(多数 agent 通过终端干活)。
长 horizon 任务为什么难?
核心问题:任务步数从几步变成几十步,agent 表现会怎样?
长 horizon 任务上 agent 普遍早崩,最强 agent 通过率低于 20%[2]。LongCLI-Bench 用 20 个长 horizon 编程任务测这一维度。
它的发现很尖锐:任务普遍在完成 30% 前就崩溃,且自纠正效果甚微——错误一旦累积,agent 难以靠自我修复挽回(06-规划与自纠/03 的反思机制在长任务上效力有限)。它用 F2P+P2P + 步骤级打分,能定位 agent 在第几步开始失控。可借鉴的判断:短任务的高成功率无法外推到长任务,长 horizon 是独立且更难的能力。
LOCA-bench 怎么测上下文增长?
核心问题:上下文越堆越长时,agent 的退化能不能被量化?
LOCA-bench 把上下文从 8K 可控扩展到 256K,测 agent 在上下文增长下的表现[3]。它用 7 个上下文长度档、每档 75 个实例(共 525 样本)系统地拉长上下文。
核心发现是验证了 context rot:上下文增长导致性能退化,而先进的上下文管理能改善成功率(对应 02-上下文工程 的窗口内组织与记忆管理)。LOCA-bench 的价值在于把"上下文长度"变成可控变量,让上下文管理方案的收益可量化。可借鉴的判断:评测 agent 要把上下文长度当成独立变量,而非固定条件。
Takeaway
| 知识点 | 核心结论 |
|---|---|
| SWE-bench 盲区 | 不测纯 CLI、不测超长任务 |
| Terminal-Bench | 89 个 CLI 任务,前沿模型 <65%,会改码≠会用终端 |
| LongCLI-Bench | 长 horizon 通过率 <20%,30% 前崩溃,自纠效力弱 |
| LOCA-bench | 8K→256K 可控增长,量化 context rot 与上下文管理收益 |
| 共同启示 | 短任务高分不可外推,CLI/长任务/上下文是独立维度 |
参考资料
- Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces. arXiv:2601.11868, 2026. https://arxiv.org/abs/2601.11868
- LongCLI-Bench: A Benchmark for Long-horizon Agentic Programming in Command-Line Interfaces. arXiv:2602.14337, 2026. https://arxiv.org/abs/2602.14337
- LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth. arXiv:2602.07962, 2026. https://arxiv.org/abs/2602.07962
延伸阅读
- 02-SWE-bench家族 — coding agent 的主流评测家族
- 02-上下文工程 — LOCA-bench 印证的上下文管理收益